OpenAI 在凌晨的春季更新串流节目中发表 GPT-4o 模型，它具备 GPT-4 Turbo 的同等智能，但回应速度快一倍，并能同时处理语音、文字和视觉输入。

GPT-4o 中的“o”代表“全方位（omni）”，指的是该模型的可以同时处理多种输入输出模式的能力。OpenAI 表示，GPT-4o 与 GPT-3.5 或 GPT-4 不同，两者虽然允许用户通过说话提问，但其实背后是将将语音转录成文字，再将文字回应转成语音。

GPT-4o 在训练的过程中就已经整合了文字、视觉和音讯，这意味着所有这些不同模式的输入和输出，都依然由同一个神经网络处理。

OpenAI 在 YouTube 频道上张贴了 16 段影片，展示使用 GPT-4o 模型的 ChatGPT app 即时语音助理功能，它同时具备几乎即时的语音辨识和电脑视觉能力，能观看手写文字、图案及算式，即时翻译，又能即时分析用户批准它观看的画面内容，包括即时分析程式或图表，提供意见。

ChatGPT 语音助理说话相当自然，用户也像与真人交谈一样，回应相当快速，不过她有点长气，示范期间主持人也多次打断她。另外，它的效能比 GPT-4 Turbo 提升一倍，但成本就只是 GPT-4 Turbo 的一半，上下文窗口仍然是 128,000 token。GPT-4o 的语言处理能力在质量和速度上均有显著提高，现支援超过 50 种语言。

OpenAI 将在未来几周内向所有人开放新模型，包括免费的 ChatGPT 用户。该公司同时还将发表一个 Window 版的 ChatGPT，但最初仅推出 Mac 版本，付费用户可以从今天开始试用。

OpenAI 发布全新 GPT-4o 模型免费享受 AI 语音助理

总体评分

Loading...

OpenAI 发布全新 GPT-4o 模型 免费享受 AI 语音助理

总体评分

Loading...

OpenAI 发布全新 GPT-4o 模型免费享受 AI 语音助理